视觉问答一致性的逻辑推论

虽然视觉问答(VQA)模型在最近取得了相当大的进展,但是不一致或矛盾的答案仍然对它们真正的推理能力存在怀疑。 然而,大多数提出的方法使用间接策略或假设问题和答案之间的配对来强制执行模型的一致性,而我们提出了一种新的策略,旨在通过直接减少逻辑不一致性来提高模型性能。 为此,我们引入了一个新的一致性损失项,可以被广泛使用的VQA模型所使用,并且依赖于知道一对问题和答案之间的逻辑关系。 虽然这种信息通常在VQA数据集中不可用,但我们建议使用专门的语言模型推断这些逻辑关系,并将它们用于我们提出的一致性损失函数中。 我们在VQA Introspect和DME数据集上进行了广泛的实验,并表明我们的方法可以改善最先进的VQA模型,同时在不同的体系结构和设置中具有鲁棒性。

论文链接:http://arxiv.org/pdf/2303.09427v1

更多计算机论文:http://cspaper.cn/

Related posts